2012/04/06

[Data Analytics] 基本概念:模型與預測

大部份「資料分析」的目的,是為了理解我們觀察到的現象背後的脈絡,並且藉由這些觀察所得到的洞見,來對往後的現象作出預測。

雖然有人把各種分析的方法,區分成質化跟量化兩大領域,但是這些分析工具的目的卻是一致的:用系統化的方式,把觀察和經驗轉化成知識。


這篇短文的目的,在於介紹資料分析的一些基本概念,簡單的術語,跟常常遇到的問題。

模型(model),是我們用來詮釋資料的理論基礎。以質化研究來說,所謂的模型可能是一套理論架構,比方說佛洛依德的精神分析理論,或是行為主義的刺激反應連結論。不同的理論模型,都可以用來解釋我們觀察到的某種現象,但在詮釋上可能各自有其牽強無法自圓其說的部分;而不同的理論架構所衍生出的預測,以及後續會採取的行動,也都有所不同。

舉例來說,假設我們觀察到某個人對某種食物有異於常人的偏好,如果一個精神分析學家來診斷,可能會判斷此人是口腔期的性慾沒有得到滿足,進而建議此人藉由多吃此種食物,滿足其慾望之後,此種異常行為的趨力即可獲得紓解,而減輕其症狀。但是如果是一位行為學派的醫師,可能會把這種偏好歸因於此種食物與過去某種愉快的經驗有很強的聯結,進而建議此人把愉悅的經驗多與其他食物聯結,來減少對該種食物特定的偏好。

從上面的例子我們可以看到,「理論模型」的選擇,左右了我們對某個現象的詮釋,也直接影響了我們的預測,和對後續行動的建議。

以量化研究來說,情況應該更容易理解。左圖上的點,代表的是我們觀察到的 100 個人的身高和體重(數值已經標準化,可以視為跟平均身高還有平均體重的差異),假設我們想從這些觀察當中,找出人類身高跟體重的關係,並且從一個人的身高來預測他的體重,可以怎麼做?

這其實是回歸分析(regression)常用的例子:用一些資料來預測另一些資料。圖中的藍色曲線跟紅色直線,代表的是不同的回歸模型,藍色的是一個二次多項式模型,而紅色的是線性模型。從圖上可以很明顯地看出來,兩種模型對一個身高是 -3 的人的體重預測,分別是 0.9 和 -0.8 ,有很大的差別;但是對身高是 -1 的人來說,兩種模型的預測是差不多的。

那麼,「哪種模型比較好」呢?事實上,這是一個很難回答的問題,就像要比較「精神分析跟行為主義哪個理論比較好」一樣困難。

在這個例子裡,藍色的曲線似乎比較符合資料的分佈,也就是「對觀察到的資料的解釋力比較高」,就現有的觀察資料來說,可以說是比較好的。但是,對現有的資料解釋力較高,並不見得表示對沒有觀察到的資料的預測能力就一定比較高,這個問題,就用另一篇來說明好了。


沒有留言: